张张量强大的主成分分析(TRPCA)旨在恢复因稀疏噪声破坏的低排名张量,在许多真实应用中引起了很多关注。本文开发了一种新的全球加权TRPCA方法(GWTRPCA),该方法是第一种同时考虑额外域内切片和额叶间切片奇异值的重要性。利用这些全球信息,GWTRPCA惩罚了较大的单数值,并为其分配了较小的权重。因此,我们的方法可以更准确地恢复低管级组件。此外,我们提出了通过改良的考奇估计量(MCE)的有效自适应学习策略,因为重量设置在GWTRPCA的成功中起着至关重要的作用。为了实现GWTRPCA方法,我们使用乘数的交替方向方法(ADMM)方法设计了一种优化算法。对现实世界数据集的实验验证了我们提出的方法的有效性。
translated by 谷歌翻译
本文提出了一个最先进的框架,时间是封闭式卷积神经网络(TGCNN),该框架利用时间信息和门控机制来解决农作物分类问题。此外,构建了几个植被指数以扩大输入数据的维度以利用光谱信息。TGCNN中都考虑了空间(频道)和时间(逐步)相关性。具体而言,我们的初步分析表明,在此数据集中,逐步信息更为重要。最后,门控机制有助于捕获高阶关系。我们的TGCNN解决方案分别达到$ 0.973 $ F1分数,$ 0.977 $ AUC ROC和$ 0.948 $ iou。此外,它在不同的本地任务(肯尼亚,巴西和多哥)中的其他三个基准优于其他三个基准。总体而言,我们的实验表明TGCNN在这个地球观察时间序列分类任务中是有利的。
translated by 谷歌翻译
估计物体的距离是自动驾驶的一项安全至关重要的任务。专注于短距离对象,现有方法和数据集忽略了同样重要的远程对象。在本文中,我们引入了一项具有挑战性且探索不足的任务,我们将其称为长距离距离估计,以及两个数据集,以验证为此任务开发的新方法。然后,我们提出了第一个框架,即通过使用场景中已知距离的引用来准确估算远程对象的距离。从人类感知中汲取灵感,R4D通过将目标对象连接到所有引用来构建图形。图中的边缘编码一对目标和参考对象之间的相对距离信息。然后使用注意模块权衡参考对象的重要性,并将它们组合到一个目标对象距离预测中。与现有基准相比,这两个数据集的实验通过显示出显着改善,证明了R4D的有效性和鲁棒性。我们正在寻求制作提出的数据集,Waymo OpenDataSet-远程标签,可在Waymo.com/open/download上公开可用。
translated by 谷歌翻译
由于其在自主驾驶中的应用,因此基于单眼图像的3D感知已成为一个活跃的研究领域。与基于激光雷达的技术相比,单眼3D感知(包括检测和跟踪)的方法通常会产生较低的性能。通过系统的分析,我们确定了每个对象深度估计精度是界限性能的主要因素。在这种观察过程中,我们提出了一种多级融合方法,该方法将不同的表示(RGB和伪LIDAR)和跨多个对象(Tracklets)的时间信息结合在一起,以增强对目标深度估计。我们提出的融合方法实现了Waymo打开数据集,KITTI检测数据集和Kitti MOT数据集的每个对象深度估计的最新性能。我们进一步证明,通过简单地用融合增强的深度替换估计的深度,我们可以在单眼3D感知任务(包括检测和跟踪)方面取得重大改进。
translated by 谷歌翻译
The weakly supervised instance segmentation is a challenging task. The existing methods typically use bounding boxes as supervision and optimize the network with a regularization loss term such as pairwise color affinity loss for instance segmentation. Through systematic analysis, we found that the commonly used pairwise affinity loss has two limitations: (1) it works with color affinity but leads to inferior performance with other modalities such as depth gradient, (2)the original affinity loss does not prevent trivial predictions as intended but actually accelerates this process due to the affinity loss term being symmetric. To overcome these two limitations, in this paper, we propose a novel asymmetric affinity loss which provides the penalty against the trivial prediction and generalizes well with affinity loss from different modalities. With the proposed asymmetric affinity loss, our method outperforms the state-of-the-art methods on the Cityscapes dataset and outperforms our baseline method by 3.5% in mask AP.
translated by 谷歌翻译
常规的自我监督单眼深度预测方法基于静态环境假设,这导致由于对象运动引入的不匹配和遮挡问题而导致动态场景的准确性降解。现有的以动态对象为中心的方法仅部分解决了训练损失级别的不匹配问题。在本文中,我们因此提出了一种新型的多帧单眼预测方法,以在预测和监督损失水平上解决这些问题。我们的方法称为DynamicDepth,是一个新框架,该框架是通过自我监督周期一致的学习方案训练的。提出了动态对象运动解开(DOMD)模块以解开对象运动以解决不匹配问题。此外,新颖的闭塞成本量和重新投射损失旨在减轻对象运动的闭塞作用。对CityScapes和Kitti数据集进行的广泛分析和实验表明,我们的方法显着优于最先进的单眼深度预测方法,尤其是在动态对象的领域。代码可从https://github.com/autoailab/dynamicdepth获得
translated by 谷歌翻译
多标签映像分类是预测一组类标签,可以视为有序的顺序数据。变形金刚整体处理顺序数据,因此它们本质上擅长设置预测。第一个基于视觉的变压器模型,提出了对象检测任务,引入了对象查询的概念。对象查询是可学习的位置编码,其被解码器层中的注意模块使用,以使用图像中的兴趣区域对对象类或边界框进行解码。但是,将相同的对象查询集输入到不同的解码器层阻碍了培训:它会导致性能下降和延迟收敛。在本文中,我们提出了仅在变压器解码器堆栈开始时提供的原始对象查询的使用。此外,我们改进了为多标签分类提出的混合技术。具有原始对象查询的所提出的变压器模型可提高最先进的阶级明智的F1度量2.1%和1.8%;并分别在MS-COCO和NUS范围的数据集中速度提高79.0%和38.6%。
translated by 谷歌翻译
半监控视频动作识别倾向于使深神经网络能够实现显着性能,即使具有非常有限的标记数据。然而,现有方法主要从当前的基于图像的方法转移(例如,FixMatch)。不具体利用时间动态和固有的多模式属性,它们的结果可能是次优。为了更好地利用视频中的编码的时间信息,我们将时间梯度引入了本文中的更多细小特征提取的额外模态。具体而言,我们的方法明确地蒸馏从时间梯度(TG)的细粒度运动表示,并施加不同方式的一致性(即RGB和TG)。在推理期间,没有额外的计算或参数,在没有额外的计算或参数的情况下显着提高了半监督动作识别的性能。我们的方法在若干典型的半监督设置(即标记数据的不同比率)下实现三个视频动作识别基准(即动态-400,UCF-101和HMDB-51)的最先进的性能。
translated by 谷歌翻译
自我监督的单眼深度预测提供了一种经济有效的解决方案,以获得每个像素的3D位置。然而,现有方法通常会导致不满意的准确性,这对于自治机器人至关重要。在本文中,我们提出了一种新的两级网络,通过利用低成本稀疏(例如4梁)LIDAR来推进自我监督单眼密集深度学习。与使用稀疏激光雷达的现有方法不同,主要以耗时的迭代后处理,我们的模型保留单眼图像特征和稀疏的LIDAR功能,以预测初始深度图。然后,有效的前馈细化网络进一步设计为校正伪3D空间中这些初始深度图中的错误,其具有实时性能。广泛的实验表明,我们所提出的模型显着优于所有最先进的自我监控方法,以及基于稀疏的激光器的方法,以及对自我监督单眼深度预测和完成任务。通过精确的密集深度预测,我们的模型优于基于最先进的稀疏激光雷达的方法(伪LIDAR ++)在Kitti排行榜上下游任务单眼3D对象检测超过68%。代码可在https://github.com/autoailab/fusiondepth获得
translated by 谷歌翻译
Large-scale labeled data are generally required to train deep neural networks in order to obtain better performance in visual feature learning from images or videos for computer vision applications. To avoid extensive cost of collecting and annotating large-scale datasets, as a subset of unsupervised learning methods, self-supervised learning methods are proposed to learn general image and video features from large-scale unlabeled data without using any human-annotated labels. This paper provides an extensive review of deep learning-based self-supervised general visual feature learning methods from images or videos. First, the motivation, general pipeline, and terminologies of this field are described. Then the common deep neural network architectures that used for self-supervised learning are summarized. Next, the schema and evaluation metrics of self-supervised learning methods are reviewed followed by the commonly used image and video datasets and the existing self-supervised visual feature learning methods. Finally, quantitative performance comparisons of the reviewed methods on benchmark datasets are summarized and discussed for both image and video feature learning. At last, this paper is concluded and lists a set of promising future directions for self-supervised visual feature learning.
translated by 谷歌翻译